匿名化“祛魅”——匿名化法律实务解析
一
比较法视野下的匿名化
二
去标识化技术解析
(一) 基础概念
(二) 常见技术手段
K-匿名模型: 要求发布的数据中, 指定标识符属性值相同的每一等价类至少包含K个记录, 使攻击者不能判别出个人信息所属的具体个体, 从而保护了个人信息安全。
差分隐私模型: 确保数据集中任何特定的个人信息主体的存在与否无法从去标识化数据集或系统响应中推导出。
(三) 去标识化流程
狭义上的去标识化通常指指对直接标识符和准标识符进行删除或变换, 以避免攻击重新识别出原始个人信息主体; 广义上说, 去标识化还包括控制重标识风险、结合具体应用场景选择合适的去标识化模型和技术, 并对去标识化效果进行评估的一系列过程。
因此, 去标识化过程可分为确定目标、识别标识、处理标识以及验证审批等步骤, 并在上述各步骤的实施过程中和完成后进行有效的监控和审查。如下图所示。
(四)去标识化效果评估标准
根据《个人信息去标识化效果分级评估规范(征求意见稿)》(“《分级评估规范》”), 基于重标识风险从高到低, 个人信息标识度分级可划分为4级:
1级数据: 是指包含直接标识符的数据, 在特定环境下能直接识别个人信息主体。
2级数据: 是指删除了直接标识符, 但包含准标识符的数据。或者对直接标识符进行了处理(例如: 泛化、抑制等), 使其不再能直接(单独)标识个人身份, 并且重标识风险高于设定阈值(0.05)的数据。
3级数据: 是指消除了直接标识符, 且重标识风险低于设定阈值(0.05)的数据。
4级数据: 是指对数据进行汇总分析得出的聚合数据, 不再包含个例数据。例如总计数、最大值、最小值、平均值等。
三
匿名化的风险与实践中的探索
(一) 匿名化的风险
从技术角度来说, 如果给出足够的时间和资源, 或许不存在绝对“不能复原”的数据, 任何匿名数据都可能会被“去匿名化”——重新识别到个人信息主体。特别是考虑到数据挖掘技术的发展, 以及日益增加的个人信息收集行为, 重识别攻击将变得更加容易, 去匿名化的风险也会增加。
例如, 2006年, Netflix向公众发布了一个匿名的数据集, 其中包括50万成员的电影评论。Netflix对这些记录进行了“匿名化”处理, 删除了用户名等识别信息, 仅保留每个用户对电影的评分和评分的时间。发布后不久, 两名研究人员发现, 通过将Netflix评论与IMDB的公开数据进行匹配, 可以重新识别Netflix数据集中大部分用户的身份。[6]
种种事例说明, 尽管尽了最大努力去除可识别的信息, 但理论上经过处理后的信息仍然存在被重新识别的风险, 并且这种风险会随着技术的发展而持续增加, 完美的“匿名化”技术可能仅仅是一种奢望。
(二) 实践中的探索
2021年7月27日, 上海市市场监督管理局发布了上海市地方标准《数据去标识化共享指南》(DB31/T 1311-2021)(“《指南》”), 并已于10月1日起实施。鉴于个人信息匿名化“不能复原”判断标准的模糊, 且“绝对的不能复原”难以实现, 《指南》对于数据去标识化共享采取了“相对的不可复原”标准, 以平衡信息主体权利权益保护与数据流通。
《指南》承认纯粹的技术手段存在局限性、任何去标识化措施均存在被重新识别的可能, 主张通过引入可信的第三方平台(例如数据交易中心), 在数据共享的过程中实施配套控制与保护措施, 以防范个人信息安全风险, 促进数据的合规流通。
《指南》基础概念
《指南》数据流通规则
《指南》中的去标识化数据包括主体标识、数据项、数据值三要素, 具体如下:
根据《指南》规定, 对于主体标识经处理后形成的“标记”, 各主体原则上不得利用所接受的数据进行还原; 对于其他去标识化后的数据, 《指南》根据数据接收方的不同应用场景(群体或个体), 制定了相应的流通规则:
以群体为对象的应用(例如统计分析), 若不以识别特定人为目的, 应当允许自由流通。接收方可在维持数据去标识化的状态下, 开展相关应用, 无需就共享再次征得个人信息主体的同意;
以个体为对象的应用(例如身份验真、贷款审批), 仍须遵循现行个人信息保护的法律规则, 在获得个人信息主体的同意之后, 方可对去标识化后的数据进行“受控重标识”。
并且, 由平台方负责留存标记生成、受控重标识的记录, 确保数据流通全过程可控和责任可追溯。
四
结语
大量研究表明, 目前几乎所有的匿名化处理技术均不可能达到100%消除重识别风险的效果。因此, 个人信息保护的目标应当是尽可能降低个人信息处理过程中的隐私风险, 而不是追求技术上完美的匿名化。通过可靠的去标识化技术与配套的控制和管理措施相结合, 未尝不是实现“匿名化”的一种途径。《指南》已经在地方层面对去标识化数据的共享进行了探索, 期待可以推动相关国家标准的早日出台。
向下滑动查看注释
[1] 例如, 通过加密技术实现的去标识化, 可以通过密钥进行还原; 通过Hash算法实现的去标识化, 可以通过映射表单的方式还原。
[2] 参见《个人信息保护法》第五十一条。
[3] FTC, Protecting Consumer Privacy in an Era of Rapid Change: Recommendations for Businesses and Policymakers, iv, 20-21 (2012)
[4] Article: 29 Data Protection Working Party, Opinion 05/2014 on Anonymization Techniques, Europa 3 (2014)
[5] 即Hash函数, 一种加密技术, 可将任意长度的二进制串映射为固定长度二进制串, 常见的Hash算法有MD5, SHA256等。
[6] Arvind Narayanan, Vitaly Shmatikov. Robust De-anonymization of Large Sparse Datasets. IEEE Symposium on Security and Privacy
作者:
潘永建 合伙人 +86 136 2172 0830 +86 21 3135 8701 david.pan@llinkslaw.com | |
朱晓阳 律师 |
邓梓珊 |
左嘉玮 |
往期分享
长按下图识别二维码关注我们
© 通力律师事务所
本微信所刊登的文章仅代表作者本人观点, 不代表通力律师事务所的法律意见或建议。我们明示不对任何依赖该等文章的任何内容而采取或不采取行动所导致的后果承担责任。如需转载或引用该等文章的任何内容, 请注明出处。
点击“阅读原文”,直达通力官网了解更多资讯!